智能论文笔记

Electronic-structure properties from atom-centered predictions of the electron density

Andrea Grisafi , Alan M. Lewis , Mariana Rossi , Michele Ceriotti

分类： (统计)机器学习

2022-06-28

分子或材料的电子密度最近作为机器学习模型的目标数量受到了主要关注。一种自然选择，用于构建可传递可转移和线性缩放预测的模型是使用类似于通常用于密度拟合近似值的常规使用的原子基础来表示标量场。但是，基础的非正交性对学习练习构成了挑战，因为它需要立即考虑所有原子密度成分。我们设计了一种基于梯度的方法，可以直接在优化且高度稀疏的特征空间中最大程度地减少回归问题的损失函数。这样，我们克服了与采用以原子为中心的模型相关的限制，以在任意复杂的数据集上学习电子密度，从而获得极为准确的预测。增强的框架已在32个液体水的32个周期细胞上进行测试，具有足够的复杂性，需要在准确性和计算效率之间取得最佳平衡。我们表明，从预测的密度开始，可以执行单个Kohn-Sham对角度步骤，以访问总能量组件，而总能量组件仅针对参考密度函数计算，而误差仅为0.1 MEV/ATOM。最后，我们测试了高度异构QM9基准数据集的方法，这表明训练数据的一小部分足以在化学精度内得出地面总能量。

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

SizeGAN: Improving Size Representation in Clothing Catalogs

Kathleen M. Lewis , John Guttag

分类：计算机视觉

2022-11-05

Online clothing catalogs lack diversity in body shape and garment size. Brands commonly display their garments on models of one or two sizes, rarely including plus-size models. In this work, we propose a new method, SizeGAN, for generating images of garments on different-sized models. To change the garment and model size while maintaining a photorealistic image, we incorporate image alignment ideas from the medical imaging literature into the StyleGAN2-ADA architecture. Our method learns deformation fields at multiple resolutions and uses a spatial transformer to modify the garment and model size. We evaluate our approach along three dimensions: realism, garment faithfulness, and size. To our knowledge, SizeGAN is the first method to focus on this size under-representation problem for modeling clothing. We provide an analysis comparing SizeGAN to other plausible approaches and additionally provide the first clothing dataset with size labels. In a user study comparing SizeGAN and two recent virtual try-on methods, we show that our method ranks first in each dimension, and was vastly preferred for realism and garment faithfulness. In comparison to most previous work, which has focused on generating photorealistic images of garments, our work shows that it is possible to generate images that are both photorealistic and cover diverse garment sizes.

translated by 谷歌翻译

Affinity-VAE for disentanglement, clustering and classification of objects in multidimensional image data

Jola Mirecka , Marjan Famili , Anna Kotańska , Nikolai Juraschko , Beatriz Costa-Gomes , Colin M. Palmer , Jeyan Thiyagalingam , Tom Burnley , Mark Basham , Alan R. Lowe

分类：计算机视觉 | 机器学习

2022-09-09

在这项工作中，我们介绍了亲和力-VAE：基于其相似性在多维图像数据中自动聚类和对象分类的框架。该方法扩展了$ \ beta $ -vaes的概念，其基于亲和力矩阵驱动的知情相似性损失组件。与标准的$ \ beta $ -VAE相比，该亲和力VAE能够在潜在表示中创建旋转不变的，形态上均匀的簇，并具有改进的群集分离。我们探讨了2D和3D图像数据上潜在空间的潜在分离和连续性的程度，包括模拟的生物电子冷冻术（Cryo-ET）体积，作为科学应用的一个例子。

translated by 谷歌翻译

Multiscale methods for signal selection in single-cell data

Renee S. Hoekzema , Lewis Marsh , Otto Sumray , Xin Lu , Helen M. Byrne , Heather A. Harrington

分类： (统计)机器学习

2022-06-15

单细胞转录组学的分析通常依赖于聚类细胞，然后进行差异基因表达（DGE）来识别这些簇之间变化的基因。这些离散分析成功地确定了细胞类型和标记。但是，可能无法检测到细胞类型内部和之间的连续变化。我们提出了三种拓扑动机的数学方法，用于无监督的特征选择，这些方法可以同时在多个尺度上同时考虑离散和连续的转录模式。 eigenscores（$ \ mathrm {eig} _i $）基于其与图形laplacian的频谱分解在数据中与低频内在图案的对应相对的对应。多尺度拉普拉斯评分（MLS）是一种无监督的方法，用于在数据中定位相关量表并选择在这些相应量表上相干表达的基因。持续的瑞利商（PRQ）采用了配备过滤的数据，允许在分叉过程中具有不同作用的基因（例如伪时间）。我们通过将它们应用于已发布的单细胞转录组数据集来证明这些技术的实用性。该方法验证了先前鉴定的基因并检测具有相干表达模式的其他基因。通过研究基因信号与基础空间的几何形状之间的相互作用，这三种方法给出了基因的多维排名和它们之间关系的可视化。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Metrics reloaded: Pitfalls and recommendations for image analysis validation

Lena Maier-Hein , Annika Reinke , Evangelia Christodoulou , Ben Glocker , Patrick Godau , Fabian Isensee , Jens Kleesiek , Michal Kozubek , Mauricio Reyes , Michael A. Riegler

分类：计算机视觉

2022-06-03

自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是，当前的度量使用通常是不明智的，并且不能反映基本的域名。在这里，我们提出了一个全面的框架，该框架指导研究人员以问题意识的方式选择绩效指标。具体而言，我们专注于生物医学图像分析问题，这些问题可以解释为图像，对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ，数据集和算法与输出问题相关的属性的属性与问题指纹相关，同时还将其映射到适当的问题类别，即图像级分类，语义分段，实例，实例细分或对象检测。然后，它指导用户选择和应用一组适当的验证指标的过程，同时使他们意识到与个人选择相关的潜在陷阱。在本文中，我们描述了指标重新加载推荐框架的当前状态，目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的，将在社区驱动的优化之后公开作为用户友好的工具包提供。

translated by 谷歌翻译

Differentiating Geographic Movement Described in Text Documents

Scott Pezanowski , Alan M. MacEachren , Prasenjit Mitra

分类：自然语言处理

2022-01-12

了解文本文件中描述的运动很重要，因为运动的文本描述包含有关人，野生动物，商品等运动的大量地理和背景信息。我们的研究为改善我们对文本中的运动描述的理解提供了几项贡献。首先，我们展示了如何解释文本中描述的地理运动是具有挑战性的，因为一般空间术语，使得搬家不清楚的语言结构，以及许多类型的时间参考和分组等。接下来，作为克服这些挑战的一步，我们报告了人类受试者的实验，我们通过它识别人类用于区分一个运动描述的运动描述的多个重要特征（在文本中发现）。根据我们的经验结果，我们提供了在文本文档中描述的运动提供了用于计算分析的建议。我们的调查结果有助于了解有关文本描述形式的地理运动的未充分利用信息的重要特征的理解。

translated by 谷歌翻译

QU-BraTS: MICCAI BraTS 2020 Challenge on Quantifying Uncertainty in Brain Tumor Segmentation -- Analysis of Ranking Metrics and Benchmarking Results

Raghav Mehta , Angelos Filos , Ujjwal Baid , Chiharu Sako , Richard McKinley , Michael Rebsamen , Katrin Dätwyler , Raphael Meier , Piotr Radojewski , Gowtham Krishnan Murugesan

分类：计算机视觉 | 机器学习

2021-12-19

深度学习（DL）模型为各种医学成像基准挑战提供了最先进的性能，包括脑肿瘤细分（BRATS）挑战。然而，局灶性病理多隔室分割（例如，肿瘤和病变子区）的任务特别具有挑战性，并且潜在的错误阻碍DL模型转化为临床工作流程。量化不确定形式的DL模型预测的可靠性，可以实现最不确定的地区的临床审查，从而建立信任并铺平临床翻译。最近，已经引入了许多不确定性估计方法，用于DL医学图像分割任务。开发指标评估和比较不确定性措施的表现将有助于最终用户制定更明智的决策。在本研究中，我们探索并评估在Brats 2019-2020任务期间开发的公制，以对不确定量化量化（Qu-Brats），并旨在评估和排列脑肿瘤多隔室分割的不确定性估计。该公制（1）奖励不确定性估计，对正确断言产生高置信度，以及在不正确的断言处分配低置信水平的估计数，（2）惩罚导致更高百分比的无关正确断言百分比的不确定性措施。我们进一步基准测试由14个独立参与的Qu-Brats 2020的分割不确定性，所有这些都参与了主要的Brats细分任务。总体而言，我们的研究结果证实了不确定性估计提供了分割算法的重要性和互补价值，因此突出了医学图像分析中不确定性量化的需求。我们的评估代码在HTTPS://github.com/ragmeh11/qu-brats公开提供。

translated by 谷歌翻译

CytoImageNet: A large-scale pretraining dataset for bioimage transfer learning

Stanley Bryan Z. Hua , Alex X. Lu , Alan M. Moses

分类：计算机视觉 | 人工智能

2021-11-23

动机：近年来，基于形象的生物测定稳步成为高吞吐量，引发了快速自动化方法，以提取来自数百种图像的生物学有意义的信息。从想象成的成功取得灵感，我们驯服细胞造就花，一个公开源和弱标记的显微镜图像的大规模数据集（890K图像，894级）。预先训练的细胞造黄养箱产生了对上游显微镜分类任务的想象成特征具有竞争力的功能。我们展示了CytoImAgenet的证据表明，CytoImAgenet在想象中训练有素的功能中捕获信息不可用。数据集是在https://www.kaggle.com/stanleyhua/cyaagenet中提供的。

translated by 谷歌翻译